1
Les statistiques comme variables aléatoires : La distribution d'échantillonnage
MATH003Lesson 4
00:00
En inférence statistique, nous passons de l'observation de points de données individuels à l'analyse d'une **statistique** — une application fonctionnelle $Y = h(X_1, X_2, \dots, X_n)$ d'une suite d'échantillons. Comme l'échantillon sous-jacent est composé de variables aléatoires, la statistique elle-même est une variable aléatoire, et sa loi de probabilité est appelée la **distribution d'échantillonnage**.

La statistique comme application

Une statistique est formellement définie comme une fonction $h: \mathbb{R}^n \to \mathbb{R}$. Nous définissons la probabilité que la statistique tombe dans un ensemble $B$ en utilisant l'image inverse :

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

Le fondement des variables i.i.d.

Pour un échantillon de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), la probabilité conjointe d'un point d'échantillon spécifique $(x_1, \dots, x_n)$ est le produit de leurs probabilités marginales : $p(x_1)p(x_2)\dots p(x_n)$. Ce produit sert de poids pour chaque point lors du calcul de la probabilité totale que la statistique prenne une valeur spécifique.

Exemple 4.1.1 : La moyenne géométrique

Considérons une population discrète où $p_X(1) = 1/2$, $p_X(2) = 1/4$ et $p_X(3) = 1/4$. Nous tirons un échantillon de taille $n=2$ ($X_1, X_2$) et définissons notre statistique comme la moyenne géométrique : $Y_2 = (X_1 X_2)^{1/2}$.

Pour trouver la distribution de $Y_2$, nous listons les 9 paires possibles $(X_1, X_2)$, calculons leur probabilité conjointe et la valeur correspondante de $Y_2$ :

Paire $(x_1, x_2)$Prob $P(x_1)P(x_2)$$Y = \sqrt{x_1 x_2}$
(1, 1)1/41,000
(1, 2), (2, 1)1/8 + 1/8 = 1/41,414
(1, 3), (3, 1)1/8 + 1/8 = 1/41,732
(2, 2)1/162,000
(2, 3), (3, 2)1/16 + 1/16 = 1/82,449
(3, 3)1/163,000

Distributions exactes versus asymptotiques

Avant de passer aux théorèmes limites comme le Théorème central limite (TCL), nous devons maîtriser la "distribution exacte". Cela implique de calculer la fonction de masse ou de densité spécifique d'une statistique pour une petite valeur finie de $n$. Lorsque la forme analytique devient intraitable, nous recourons à des simulations numériques telles que les **approximations de Monte Carlo**.

🎯 Principe fondamental
Une distribution d'échantillonnage est la distribution d'une variable aléatoire correspondant à une fonction d'une suite i.i.d. Elle constitue le pont entre les données brutes et l'inférence scientifique.